Created: 2026-03-06 07:53:04
Updated: 2026-03-06 07:53:04

随机变量X的熵:H(X)=p(x)log2p(x)H(X) = -\sum p(x)\log_{2}p(x)H(X)H(X)是描述信息量比特数的下限。

信息论中的信息熵和统计物理中的熵紧密相关。如果我们画出n个独立同分布的随机变量序列,则每个序列出现的概率将是大约2nH(X)2^{-nH(X)}

随机变量的描述性复杂度可以扩展到描述一个字符串的复杂度。Kolmogorov Complexity就是用来描述这种复杂度的。它被定义为生成一个字符串的最短程序的长度。如果字符串是随机的,那么它的Kolmogorov Complexity接近于熵。

Conditional Entropy: 在一个随机变量给定情形下,另一个随机变量的熵。由于另一个随机变量确定后减少的那部分不确定性称为共同信息(mutual information)。对两个变量X,Y,这个减少量为:

I(X;Y)=H(X)H(XY)=x,yp(x,y)logp(x,y)p(x)p(y)I(X;Y) = H(X)-H(X|Y) = \sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}

共同信息是对两个独立变量依赖性的度量。它关于XY对称,且总是非负的

一个信道(channel) 是一个系统,它的输出概率地取决于输入,它可以由一个在给定输入下输出概率的概率转移矩阵描述。对于输入X、输出Y的信道,定义它的容量

C=maxp(x)I(X;Y)C=\max_{p(x)}I(X;Y)

C is the maximum rate we can send information over the channel and recover the information at the output with a vanishingly low probility of error.
几个例子:

  1. Noiseless binary channel: 输入端输入为0或1,输出也为0或1,且输出严格等于输入.C=maxI(X,Y)=1bitC=\max I(X,Y)=1\text{bit}
  2. Noisy 4-symbol channel: 输入输出端均为1-4,但输出=输入输出=输入的概率为50%,输出输入+1(mod 4)输出\equiv输入+1 \text{(mod 4)}的概率也为50%;如下图所示。

    此时如果用两个输入,那么可以立刻得知发送了哪个符号。这个信道就如同前面一样,是一个无噪声的信道

一般而言,通讯信道不会有如此简单的结构,因此我们不能识别一个输入的子集,从而无错误地传输信息。但如果考虑一个序列的传输,那么所有信道与例子中类似,我们可以找出能被用于通过信道传递信息的输入序列的子集,使得与每个codeword相关的可能的输出结果序列大约是分隔的。之后,我们就可以通过查看输出序列,以极低的错误率找出输入序列。

  1. Binary symmetric channel: 这是含噪声通信系统的基本例子。信道有01两个输入,以1p1-p的概率正确输出,以pp的概率反转输入。这时信道容量为C=1+plogp+(1p)log(1p)C=1+p\log p+(1-p)\log(1-p)比特/传输。不过,如何达到这样的容量变得不再明显。如果信道被多次使用,我们就可以以速率C、以任意低的错误率传输信息。
    最终通过信道传输信息的速率由信道容量给出。共同信息是相对熵的一个特殊情形。相对熵D(pq)D(p\mid\mid q)是对两个概率分布函数p,qp,q之间距离的度量。它被定义为:

    D(pq)=xp(x)logp(x)q(x)D(p\mid\mid q)=\sum_{x}p(x)\log \frac{p(x)}{q(x)}

    尽管它不是一个真正的度量,它还是保有一些度量的性质:非负性,且D(pq)=0D(p\mid\mid q)=0当且仅当p=qp=q

股市投资与信息论之间有很多相似之处。股票市场由一个随机矢量XX定义,它的全部元素非负,代表每日结束时每股价格和每日开始时每股价格。对于拥有分布F(x)F(x)的股市,我们定义doubling rate WW:

W=maxb:bi0,bi=1logbtxdF(x)W= \max _{\mathbf{b}:b_{i}\geq 0,\sum b_{i}=1}\int \log \mathrm{b}^t\mathbf{x} \, d\mathbf{F}(\mathbf{x})

它是财富增长的最大渐进指数,与熵的性质有很多平行之处。

Leave a Comment

captcha
Fontsize